行业务实派:如何从0-1解锁数据价值,翼方健数揭秘全栈隐私安全计算技术
数智化时代,数据已成为最核心、最具价值的生产要素。其中,如何应用可落地的技术,共享和保护数据,促进数据要素进一步流通,释放数据价值,受到业内普遍关注。
隐私计算,被业内誉为打破“数据隐私安全与共享矛盾的唯一技术解”,是大数据、人工智能及产业创新驱动不可或缺的关键技术环节。随着数据与计算进一步融合,数字产业化加速推进。如何运用隐私计算实现数据“可用不可见”,形成业内亮眼、标杆性的应用案例,成为多领域客户的共性需求。
这个答案,或许是翼方健数。公开信息显示,翼方健数致力于打造“数据和计算互联网(IoDC)”,以多方安全计算、区块链等技术为核心,从安全、可信等技术要求出发,正帮助行业各方实现数据可用不可见,保障信息安全,挖掘数据的价值。
着眼实际,务实有效的数据平台究竟是怎样的?行业有哪些亟需解决的难题?在11月10日的Data X大会暨翼方健数战略发布会上,翼方健数首席科学家张霖涛归纳行业的三个痛点:
首先,优秀的数据平台必须要做到能汇聚不同源头数据,还要在数据不可见的情况下挖掘数据价值。平台需要解决的首要问题:如何保护数据隐私和安全?
其次,在IoDC场景下,资源分布在广泛的网络中,如何利用技术支持应用的数据需求?
最后,数据资产运用产生的价值如何有效分配,如何确保贡献者的长期权益?
从这些难题出发,张霖涛推导出优秀的数据平台应该具备的三大核心能力:
数据全生命周期管理:搭建从数据清洗、数据管理、数据标注、数据价值抽取、数据价值分配、数据交易等等的一系列工具和应用。数据真正能用,可用和好用。
坚实的隐私安全计算技术体系:围绕XDP平台的隐私安全计算能力,从单体平台到联邦平台再到IoDC,从沙箱到TEE到MPC和联邦学习,在隐私安全计算赛道建立最有竞争力的全栈解决方案。
AI驱动且可差异化应用:AI为核心,大数据驱动。在垂直行业利用数据和AI能力为行业客户获取最大化价值。
瞄准客户成功的目标,围绕“用技术解锁数据价值“,张霖涛详细介绍翼方健数提出的路径——全栈技术解决方案,才能为数据平台的构建带来新启发,并为迈向数据和计算互联网打下坚实基础。
隐私安全计算平台是核心底座
平台为用,架构先行。为打造适合IoDC时代的全栈技术平台,翼方健数先推导出的是核心的XDP隐私安全计算平台架构。
XDP平台架构主要由四部分组成:
1. 底层的XDP文件系统(XFS,XDP File System)用以存储数据,保证数据安全。
2. 中间层是执行引擎XEE。
3. 临近应用的一层支持各种计算环境,包括安全沙箱、可信执行环境、安全计算引擎和联邦学框架。
4. 最顶层用来支持客户的需求,部署各种应用。
张霖涛指出,底层部件XFS最为重要。如同物流仓,它决定了”数据究竟存在何处,结构是否清晰,能否支持快速调用“。
XFS专为IoDC打造,是一个分布式文件系统。XFS主要提供四大能力:首先是提供高规格安全保护,基于密钥管理系统,对数据实现强隔离、多层次的加密、细颗粒度的访问控制及可编程的生命周期管理,保证数据遵循“最小使用原则”;
其次,XFS具备全方位的计算支持,可以满足大数据和机器学习的多种需求;
此外,XFS具有卓越性能和跨平台能力,可兼容NVMe,RDMA等高性能存储技术,全面管理IoDC数据存储资源;
最后是有经济高效的使用方式,XFS支持如块存储、对象存储等,可实现数据平滑迁移。
有这样可靠的文件系统,客户可以放心汇聚、存储数据。上层的XDP DaaS Engine(XDaaS) 的应用才可进一步对数据进行发现与整合。
XDaaS提供可扩展的主数据,实现多数据源间的有效融合。XDaaS同时提供高效的数据探查能力,最后实现cell级别的来源追踪。在使用过程中,XDaaS还能对敏感数据加以保护。
数据到位后,按需调动资源,执行引擎XEE(XEE,XDP Execution Engine)开始进行运算。
XEE可使用多种底层计算基础设施,支持云和私有化部署,对硬件环境要求不高,提供多种计算模式,包括批量处理流式计算等。此外,XEE支持基于浏览器的多种交互模式。因此,XEE可做到统筹管理IoDC中的全网络计算资源。
如何保障计算的安全性和可扩展性?PCT层运用了多种技术、环境与框架。
不同于传统沙箱计算环境,翼数安全沙箱(XDP Secure Sandbox)满足单体平台上“软件可信,用户不可信”的安全假设。系统管理员在安全信任体系之外,能充分防范平台运维的违规操作。它为单体平台提供“零信任”的本地计算环境。
在有可信硬件情况下,翼方健数通过可信执行环境XTEE,为客户提供安全、高效、通用的端到端可信执行环境,并运用硬件完成对软件的验证。简而言之,XTEE可以加快远程证明、提供TEE运行时加密文件系统的支持。
对于上层的联邦学习技术能力,一方面,翼方健数还打造了一套联邦学习框架XFL,其从底层实际情况出发。具有丰富的自定义接口,兼具高安全性和高扩展性的特征。XFL支持海量插件,覆盖主流算法。数据不出域,也能在支持主流环境下进行安全联合建模。
除前期产品技术能力实现之外,翼方健数仍实时响应客户诉求,持续迭代产品功能。
由于在客户需求调研中发现,很多应用场景同步对机器学习和通用计算都有需求。为此,翼方健数开发密文计算框架XSC。
XSC框架具有高完备性、灵活部署和集成开放的跨平台特性。XSC支持高效完备的算法库,可以部署各种硬件,支持集成其他的开源隐私计算框架。张霖涛还透露,联邦学习框架XFL和密文计算框架XSC在未来都会开源。
“保姆级”的数据全生命周期管理
除让数据实现安全、可信计算外,隐私计算平台汇集数据后,在实际应用场景中,客户又提出了新的疑问:如何解决数据管理,数据价值分配和数据确权的问题?
翼方健数认为,区块链技术在这一板块优势明显,但同样需要和隐私安全计算技术打配合。
翼方健数通过结合隐私安全计算与区块链技术,开发Xledger为XDP联盟和IoDC提供不可篡改的数据存证与智能合约,对数据实现全生命周期管理,智能合约保障价值分配,保证数据所有者的权益。
如果客户想要更高效率地获取高质量数据,怎么办?
翼方健数自主研发数据标注工具GoldFinger,不仅支持高效率的用户标注,还可以更好服务AI应用需求。GoldFinger可以保证数据在使用时严格隔离,预标注能力还可扩展为众包模式,兼顾效率与安全。
客户在清洗数据时标准不明确,效果差,出现大量无效工作,何解?
那就响应需求,翼方健数开发数据治理工具DataWand。
传统的ETL手段费时费力且没有统一标准,清洗规则效果差,重复利用率低,也有数据泄露风险。
DataWand都可以解决以上问题,不仅可以对数据大规模标注,在保证数据安全情况下,算法还能持续迭代,为后续的数据清洗提供服务。据张霖涛介绍,DataWand目前已经在城市级别数据中取得很好的应用效果。这也为后续客户在选择时提供了更多参考依据。
数据储存在哪里?你们是技术供应商,交付后能否保证客户有完全的控制权限?
张霖涛表示,翼方健数本身并不拥有数据,数据的控制权需要由数据拥有方来做授权。换句话说,翼方健数是“零数据的大数据公司”。
赋能各行业,AI驱动的差异化应用
隐私安全技术可以解决安全与效率的问题。
然而在客户决策前,是否已有成功先例,仍是重要的拍板依据。
翼方健数早已在医疗、生信、政务等垂直领域完成多项AI业务挑战,储备诸多应用案例。
仅以医疗行业客户为例,翼方健数建立业界领先的,基于深度学习的诊疗合理性内核。
诊疗模型基于采集的数据,通过与库内特征比对,对疾病作出预测和预警。如做智能多点触发疾控解决方案,以此来预测传染病的发病情况和未来走势。
基于知识图谱,翼方健数辅助构建医学数据库,帮助医生/科研人员系统地从各种资料中抽取出有效信息。
诊疗合理性内核已经应用到医院端的CDSS(临床决策支持系统)和医疗质控中,进一步帮助医生提质增效降风险。相关数据在授权后,还可应用于科研院所和政策研究机构。
全栈化解决方案,是隐私计算技术落地难的最优解法
张霖涛认为,若想通过隐私计算去最大化数据价值,单一技术显然无法提供“完美”的解决方案。如果要为各行各业创造真正的数据价值,使数据和计算资源充分流动。隐私安全计算企业或许还要考虑得更为现实且深远,全栈化解决方案或许才是隐私计算技术落地难题的最优解法。
但是,对于技术供应商而言,最优解法注定会更为艰辛。抵达星辰大海之前,一路绝非坦途。
构建IoDC(数据和计算互联网)是翼方健数的愿景与目标。若要达成这一目标,一方面,翼方健数需要不断迭代各类技术方案,为客户多想一步,适应应用场景的变化;另一方面,翼方健数还需促成行业共识,使不同的平台间数据互通,为彼此产生价值。不过,这条路径一旦走通之后,必定会撬动指数级的数字化市场份额。